TCGA数据分析从未如此简单-点点鼠标就可以且超高自由度
授权转载自百味科研芝士
随着公共数据库的建立和开放,越来越多的研究者可以接触到测序数据,非常适合想我们这种“三无”研究者(无课题,无经费,无文章)运用公共数据找点事情干,可以是另辟蹊径从某个独特的视角重新分析已有的数据发发文章,也可以在没钱做测序的情况下看看自己研究的基因在别人的数据里是什么样子,积攒一些研究基础。不过想玩转生信大数据,面前总是隔着一座计算机编程的高山,门槛太高让众多小白望而却步。
今天就来介绍一个非常友好的TCGA数据分析和可视化的神奇网站。TCGA应该不用过多介绍了,癌症和肿瘤基因图谱计划,包含了最全面的测序数据。提起TCGA的数据分析网站,cBioPortal
的大名谁人不知,谁人不晓?
不过今天要介绍的不是它,关于cBioPortal使用的文章已经铺天盖地了,我凑个啥热闹。今天要介绍的是另一款国人建造数据库,个人觉得在分析的自由度上面秒杀cBioPortal。更重要的是真好用的网站居然没有搜到太多的帖子来介绍,真是太不应该了。
好了, 写了那么一大段居然还没有出现主角的名字,我实在该打。当当当当~上图上链接!GEPIA(Gene Expression Profiling Interactive Analysis),基因表达谱数据动态分析,官方网站:http://gepia.cancer-pku.cn/index.html
界面是不是非常简洁干净?
Tang, Z. et al. (2017) GEPIA: a web server for cancer and normal gene expression profiling and interactive analyses. Nucleic Acids Res, 10.1093/nar/gkx247.
该网站由北大张泽民教授团队开发,更新一下前人帖子所述的,目前已经发表了文章。记得引用!记得引用!!记得引用!!!(重要的事说三遍,这是对原创工作者的尊重)
The RNA-Seq datasets GEPIA used is based on the UCSC Xena project ( http://xena.ucsc.edu ), which are computed by a standard pipeline
由官方介绍可以看到,GEPIA数据库是基于UCSC Xena计划的数据获得的。从搜索栏可以看出,该网站的分析主要有三个板块。为了方便看,我用思维导向图的形式给大家总结出来。
GEPIA index.png
Single Gene Analysis
ERBB2检索结果
检索出来的页面中有不同的标签,可以针对检索的基因进行各种分析,比如做表达水平图,生存分析,相关性分析等。一会儿慢慢说。
General 概况
首先是对ERBB2基因概况的介绍。包括该基因在其他数据库的快速链接,包括GeneCard,NCBI等。最拉风可爱的是右边这个Bodymap小人儿图,显示了该基因在人体不同器官组织中的表达情况,红色的表示肿瘤组织,绿色的表示正常组织。颜色越深表示表达水平越高。ERBB2可能看不出非常大的差别,我找了两个奇葩一点的例子,一个是器官分布具有特异性,并且只在肿瘤中异常高表达;一个是肿瘤情况下该表达的器官低表达,不该表达的器官异常表达。
Bodymap1
Bodymap2
往下拉是ERBB2基因在各种肿瘤 / 正常组织中的表达水平展示,散点图和柱状图各取所需。看不懂癌症分类的缩写没关系,网站非常贴心的在最上面放了一个“Click here to get the extensio of tumor abbreviations”,点击即可显示这些所写的全程,也不会跳转页面或者弹出新的窗口。
dot plot
再往下走是与正在检索的基因表达类似的基因,点击任意基因的名字就可以进入这个基因自己的GoPIA检索页面,对它进行单独分析。该页面是新建窗口弹出的,所以不用担心正在检索的基因找不到了,因此也可以同时查看多个基因,方便挑选合适的伙伴。
Expression DIY 表达水平作图
在Expression DIY标签下可以对检索的基因进行表达水平的作图,从下拉菜单可以选择Profile散点图,Boxplot箱式图和Stage plot小提琴图。Multiple gene comparison不用管它,那是做多基因分析时用的。每一种格式的图都可以DIY作图的参数,选择呈现的癌种并对其进行排序,甚至颜色和大小。这里我特别想吐槽一句,不愧是国人的数据库,画起来就是快,刷刷刷!生成的图点击download或者右键进行下载,均是pdf格式。
Survival 生存分析
生存分析参数设置界面
首先在“Datasets Selection”处选定要分析的癌症肿瘤,点击“Plot”就可以生成生存曲线图。生存曲线图上面讲所有的参数进行了罗列,并计算了Logrank和HR值。不需要呈现的也可以通过勾选来去除。
生存曲线图
Similar Gene
这里是General界面下相似基因的扩展页面,在参数选择上更加细分,可以罗列Top 1 到Top 9999999的相似性基因,是的,你没看错,Top 9999999,选择框里填多少都不报错,只是会死机……大家不要像我这么无聊的去尝试这个上限。当然,列那么多也没有什么意义了。此外,也可以选择分析相似基因的范围,是指定类型的肿瘤上的,或者是指定类型的癌旁上的,抑或者是组织特异性表达数据库里的。
Correlation 相关性分析
单基因分析里最后一个能做的就是单基因的相关性分析了。可以查看感兴趣的两个基因在指定的组织中表达的相关性。所以这个标签页也可以说是做multiple gene analysis分析的。Gene A和Gene B可以手动输入,使用的是HGNC数据库的Gene Symbol,当然我试了一下,用ERBB2另外一个名字,Her2也能认出来。但是想含有希腊字母的其他基因,如NF-kB,b-catenin,还是推荐使用Gene symbol,避免出错。
Correlation analysis
到这里,单基因能做的分析就做完了,是不是已经对课题设计有了些思路呢?或者已经获得了些可以用的分析结果?下面我们来看看多基因可以做些什么分析。
Multiple Gene Analysis
多基因分析时和单基因分析的套路一样,基因表达水平的呈现,相关性分析和PCA主成分分析。相关性分析和上述单基因分析时在同一个界面下,所以我们就不再复述,剩下的我们一个一个来看看。
Multiple Gene Comparison
Multiple Gene Comparison设置界面
这里想强调一下,几个基因或者几个癌种的比较就不要用这个功能来作图了,做出来的如下所示,巨丑。人家是做大数据分析的,那么请拿出点数据量来。太少的话,我推荐直接用单基因作图的方法做,然后在photoshop里面合并。
巨丑且没意义
要做就做这样的
光标停在图上时,左上角会出现一排选择按钮,从左到右第一个是直接保存图片,为png格式。如果不满意目前的配色,可以点击第二个按钮,save and edit plot in cloud。会跳转到另一个网站上,对图片进行修改和保存。这个网站就留给大家自己探索了。似乎是个专业进行数据可视化的网站,可以做各种图。需要注册。等我有空探索完,再来写个攻略。
save and edit plot in cloud
PCA 主成分分析
多基因的降维分析一般使用的是PCA主成分分析(Principal Component Analysis),主要原理和算法我们不需要详细了解,我们只要知道它可以将一系列基因,根据其表达模式,进行一个分析,使得表达相近的聚在一起。反过来,也可以利用基因,对样本进行主成分分析,能将肿瘤和正常组织分开的基因,被认为具有很好的诊断价值。
一般基因2个或者3个主成分分析。也就是对应绘制2维和3维的PCA图。无奈,GEPIA不知道为啥,这一功能在我的电脑上总是报错。引用这篇文章的图进行说明,《PCA主成分分析原理及分析实践详细介绍》,侵删。(生信宝典注:我的文章竟然被人发到了PLOB上,还未署名。一看图觉得像,之前没见着谁会用单细胞数据做PCA分析讲解。)
PC2
PC3
Cancer Type Analysis
排版:小丸子
易生信系列培训课程,扫码获取免费资料
更多阅读
后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集